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摘要 : 

[目的 ] 系统 梳理 和 总 结 科研 智能 化 趋势 下 科研 数据 在 科研 过 程 中 的 运行 流程 ， 挖 掘 其 中 潜 
在 的 科研 数据 需求 ， 为 新 趋势 下 科研 数据 服务 的 转型 发 展 提供 思考 。 [方法 ] 在 科研 数据 生 
命 周期 的 理论 指导 下 , 以 材料 和 化 学 领域 为 例 分 析 科 研 数据 在 科研 智能 化 研究 中 如 何 转变 为 
知识 的 过 程 ， 构 建 了 包括 数据 管理 计划 、 数 据 产 生 与 收集 、 数 据 处 理 与 分 析 、 数 据 生 成 与 出 
版 、 数 据 存 储 与 共享 、 数 据 再 利用 六 大 阶段 的 科研 数据 生命 周期 运行 流程 ， 挖 掘 科研 数据 的 
作用 和 潜在 需求 。[ 结 果 ] 科研 智能 化 研究 表现 出 对 多 源 异 构 数 据 集成 、 细 粒度 数据 结构 化 、 
人 机 互动 语言 表示 的 探索 、 数 据 关 联 化 挖掘 和 科研 数据 类 型 丰富 化 的 需求 特征 。[ 结 论 ] € 
议 未 来 科研 数据 服务 发 展 加 强 高 质量 全 面 化 领域 数据 网 络 建 设 、 深 化 嵌入 科研 式 数据 服务 、 
提升 图 书馆 员 领 域 知识 和 人 工 智能 素养 、 重 视 文 本 型 数据 中 实验 信息 的 挖掘 、 关 注 人 机 互动 
语言 的 探索 。 
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Abstract: 

[Objective] Systematically sort out and summarize the operation process of 
scientific research data in the scientific research process under the trend of 
Intelligent Scientific Research, mine the potential scientific research data demand, 
and provide thinking for the transformation and development of scientific research 
data services under the new trend. 

[Methods] Under the guidance of the theory of scientific research data life cycle, 
taking the field of materials and chemistry as an example, this paper analyzes how 
scientific research data can be transformed into knowledge in the intelligent 
research of scientific research, and constructs six stages of scientific research 
data life cycle operation process, including data management plan, data generation 
and collection, data processing and analysis, data generation and publication, data 
storage and sharing, and data reuse, so as to explore the role and potential needs 


of scientific research data. 


[Results] The research on intelligent scientific research demonstrates the 
exploration of multi-source heterogeneous data integration, fine-grained data 
structuring, human-machine interaction language representation, data association 
mining, and the enrichment of scientific research data types 

[Conclusions] It is recommended to strengthen the construction of high-quality 
and comprehensive data networks in the field of scientific research data services 
in the future, deepen embedded scientific research data services, enhance the 
knowledge and artificial intelligence literacy of librarians in the field, attach 
importance to the mining of experimental information in textual data, and pay 
attention to the exploration of human-machine interaction language 
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近年 来 ， 自 成 熟 的 人 工 智能 AT) 技术 不 断 应 用 到 具有 挑战 性 的 基础 科学 
研究 后 ， 极 大 提升 了 科研 效率 ， 引 发 了 一 场 改 变 科学 研究 态势 的 热潮 ， 科 学 
研究 的 知识 发 现 主体 也 由 科研 人 员 转 变 为 智能 科学 家 ， 研 究 对 象 由 传统 的 实 
- 验 对 象 转变 为 科研 数据 。 

e 科研 数据 是 指 各 学 科 领 域 在 科研 活动 的 全 过 程 中 产生 的 各 类 数据 "， 包 
括 以 文本 形式 呈现 的 成 果 数据 一 科技 文献 、 专 利和 基础 研究 、 应 用 研究 、 斌 
= 验 开发 、 观 测 检验 等 产生 的 科学 数据 。 目 前 ， 科 研 数据 是 以 人 类 可 理解 可 学 
习 形式 和 数字 化 存储 形式 呈现 ， 人 工 智能 技术 无 法 准确 提取 数据 中 隐 含 的 科 


e 学 规律 ， 只 有 受到 特定 领域 约束 的 科研 数据 才能 供给 人 工 智能 学 习 。 
I 数据 密集 型 科研 范式 下 科研 数据 存在 增长 速度 快 、 规 模 巨大 、 来 源 和 格 
:一 式 多 样 化 的 特点 ， 为 数据 管理 保存 、 集 成 关联 、 共 享 利 用 等 带 来 了 挑战 。 因 


r 此 ， 在 发 展 过 程 中 着 重 强调 了 科研 范式 的 数字 化 转型 ， 提 出 了 构建 开放 共享 
科学 数据 库 或 平台 以 及 建立 数据 之 间 显 性 关联 的 需求 ， 以 实现 科研 数据 的 发 
现 、 访 问 、 集 成 和 分 析 ， 建 立 原 本 不 相关 领域 之 间 的 数据 关系 ， 促 进 知识 发 
现 "。 由 此 ， 世 界 各 国 持续 发 力 ， 以 科研 数据 集成 共享 为 出 发 点 布局 相关 的 
战略 , 例如 欧盟 在 第 七 框架 计划 (7th Framework Programme, FP7) (2007-2013 
^E) 启动 全 球 科 学 数据 基础 设施 建设 项 目 GRDI 2020 (Global Research Data 
Infrastructures)， 将 科研 数据 集成 共享 纳入 科研 计划 中 ”。 

随 着 海量 科研 数据 的 积累 和 AT 技术 在 科学 研究 中 的 深度 融合 催生 了 科 
研 智 能 化 研究 范式 。 新 范式 下 科研 数据 呈现 出 多 源 异 构 、 多 维度 、 关 联 性 的 
复杂 性 特点 ， 数 据 密集 型 科研 范式 下 共享 集成 的 科研 数据 具有 分 散 性 、 领 域 
数量 差异 大 、 质 量 参差 不 齐 、 标 准 和 格式 不 一 致 等 问题 ， 为 AI 模型 的 可 读 、 
可 利用 和 可 理解 带 来 挑战 。 基 于 此 需求 美国 开始 部 署 相 关 政 策 机 制 以 把 握 新 
趋势 下 的 科研 数据 主导 权 ， 例 如 2020 年 5 月 美国 国立 卫生 研究 院 CNIH) 共 
同 基 金 启 动 “Bridge2AI” 计 划 以 生成 机 器 可 理解 的 统一 标准 化 的 生物 医学 
和 行为 数据 集 和 开发 自动 化 工具 加 速 标 准 化 数据 集 生成 为 目标 ; 2021 年 美国 
材料 基因 组 计划 面向 科研 智能 化 趋势 确立 了 统一 规范 化 材料 数据 基础 设施 、 
推动 材料 数据 开放 共享 和 元 数据 标准 统一 的 战略 目标 以 充分 发 挥 材料 数据 


在 人 工 智能 研发 领域 的 力量 ”。 

面向 科研 范式 的 变革 ， 国 家 科研 数据 政策 和 计划 的 部 署 为 科研 智能 化 研 
究 的 发 展 和 进步 提供 了 数据 服务 保障 。 在 科研 智能 化 研究 实践 中 发 现 新 趋势 
下 科研 数据 服务 由 领域 科研 人 员 、 数 据 科学 家 以 及 信息 服务 人 员 组 成 ， 其 中 
领域 科研 人 员 和 数据 科学 家 从 科研 智能 化 研究 需求 和 前 沿 人 工 智能 技术 出 
发 不 断 探 索 和 参与 智能 化 研究 趋势 下 的 科研 数据 研究 工作 ， 构 建 高 质量 、 细 
粒度 、 多 模 态 的 科研 数据 库 以 满足 AI 模型 的 数据 需求 ， 与 其 相 比 ， 信 息 服 
务 人 员 在 科研 智能 化 研究 趋势 下 的 科研 数据 服务 仍然 集中 在 传统 的 文献 元 
数据 层面 的 组 织 、 前 沿 技 术 的 咨询 和 培训 服务 方面 ， 虽 然 初步 探索 了 细 粒 度 
数据 的 抽取 和 知识 服务 转型 的 研究 , 但 与 领域 科研 人 员 和 数据 科学 家 相 比 在 
新 趋势 下 科研 数据 服务 的 探索 度 和 参与 度 存在 和 劣势， 未 在 已 有 工作 中 凸显 文 
献 信息 服务 机 构 的 数据 和 技术 结合 的 优势 。 

综 上 可 知 ， 科 研 智 能 化 研究 已 经 认识 到 科研 数据 的 重要 性 ， 并 开展 了 相 
关 的 政策 和 计划 部 署 。 科 研 数 据 在 科学 研究 中 是 一 个 生命 周期 运动 的 过 程 ， 
现 有 研究 缺乏 对 新 趋势 下 科研 数据 生命 周期 运行 流程 、 作 用 和 需求 的 探索 ， 
以 了 解 新 趋势 下 科研 数据 发 展 的 现状 。 因 此 ， 本 文 从 科研 智能 化 实践 研究 工 
作出 发 ， 基 于 科研 数据 生命 周期 视角 总 结 梳理 了 新 趋势 下 科研 数据 在 科学 研 
完 中 的 生命 周期 运行 过 程 、 作 用 和 潜在 需求 ， 并 据 此 为 新 趋势 下 文献 信息 服 
务 机 构 科 研 数 据 服务 的 发 展 提供 思路 。 
2 ”科研 智能 化 趋势 下 科研 数据 生命 周期 运行 过 程 分 析 

科研 数据 在 科学 研究 中 的 运行 流程 是 一 个 目标 驱动 的 DIKW 模型 ， 也 即 
是 在 研究 目标 的 张 动 下 科研 数据 向 信息 、 知 识 、 智 翡 的 转变 过 程 ， 以 支持 研 
完 目 标的 实现 。 本 章节 以 科研 智能 化 研究 前 沿 领域 一 材料 和 化 学 领域 为 例 ， 
探究 科研 智能 化 趋势 下 科研 数据 生命 周期 运行 过 程 ， 主 要 是 分 析 数 据 如 何 转 
变 为 最 终 的 智慧 〈 图 1) ， 该 流程 框架 的 构建 是 从 研究 实践 角度 出 发 ， 基 于 
数据 生命 周期 理论 对 各 环节 和 流程 进行 详细 阐述 和 分 析 。 
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图 1 科研 智能 化 趋势 下 科研 数据 生命 周期 运行 过 程 
1 数据 管理 计划 CDMP) 

研究 主题 的 确定 为 科研 项 目 工作 树立 了 一 座 “ 导 航 塔 ”。 在 确定 研究 主 
题 之 后 ， 需 要 制定 辅助 科研 项 目 数 据 管理 工作 的 计划 。 数 据 管理 计划 (DMP) 
是 一 个 在 整个 研究 项 目 生命 周期 内 以 描述 项 目 数 据 收集 、 记 录 、 管 理 和 发 布 
的 动态 文档 ， 包 括 创建 、 记 录 、 访 问 、 存 储 和 共享 的 技术 、 方 法 和 政策 ， 
在 科研 数据 和 成 果 的 管理 和 审查 中 发 挥 着 关键 作用 。 开 放 科 学 大 背景 下 ， 科 
研 资助 机 构 作 为 推动 开放 获取 的 主力 军 ， 发 布 了 科研 项 目 申请 时 提交 数据 管 
理 计划 的 政策 ， 促 进 科研 数据 开放 共享 ”。 

对 比 国内 外 资助 机 构 DMP 基础 上 发 现 ， 国 外 资助 机 构 DMP 服务 提供 相应 
的 工具 和 模板 ， 对 资助 项 目的 DMP 所 包含 内 容 进 行 具 体 拆 解 和 说 明 ， 重 视 科 
研 数据 存储 后 的 共享 与 访问 、 安 全 与 伦理 及 DMP 成 本 管理 。 国 内 DMP 以 国家 
科技 部 和 中 科 院 为 主体 对 资助 计划 或 项 目 所 产生 的 数据 进行 管理 ， 未 提供 相 
应 的 DMP 工具 与 模板 ， 重 点 在 于 科研 数据 的 汇 交 与 管理 ， 明 确 了 数据 相关 主 
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体 职责 及 汇 交 途径 ， 缺 乏 对 后 续 共 享 与 访问 、 成 本 管理 的 重视 。 


2.2 数据 产生 与 收集 


数据 产生 与 收集 阶段 是 支撑 科学 研究 的 基础 环节 ,科研 人 员 基 于 研究 目 
标 和 数据 可 用 性 选择 合适 的 数据 类 型 和 数据 获取 途径 以 获取 所 需 研 究 数 据 
内 容 ， 后 续 科学 研究 提供 “燃料 ” (图 2) 。 


2 科学 研究 中 数据 产生 类 型 与 获取 途径 
(1) 数据 生产 途径 
数据 生产 是 开展 科学 研究 的 重要 起 始 阶段 ， 为 科研 智能 化 研究 积累 了 大 
量 可 用 数据 。 现 有 数据 生产 途径 主要 有 科技 文献 、 专 利 、 实 验 数据 和 计算 数 
据 四 大 类 ， 科 技 文献 和 专利 文本 数据 通过 人 工 抽 取 、 半 自动 化 和 自动 化 方法 
抽取 其 中 的 元 数据 、 实 体 及 属性 值 、 表 格 、 图 像 和 实验 段落 数据 ;实验 数据 
是 科研 人 员 在 观察 、 实 验 、 调 查 过 程 中 收集 和 生成 的 数据 或 借助 电子 记录 实 


含 本 ELN) 工具 数字 化 记录 相关 数据 ， 计 算数 据 是 科研 人 员 借 助 高 通 量 得 
选 、 计 算 平 台 或 AI 模型 工具 生成 的 模拟 或 预测 数据 。 
(2) 数据 获取 途径 

数据 获取 途径 是 科研 人 员 根 据 研究 主题 、 数 据 质量 、 数 据 结构 、 数 据 易 
获取 性 的 特点 选择 适合 的 数据 集 构 建 途 径 。 现 有 数据 获取 途径 主要 包括 期 刊 
出 版 商 、 专 利 数 据 库 、 科 学 数据 库 、 开 放 数 据 平台 和 人 工 构建 数据 集 五 大 途 
径 。 

从 数据 来 源 和 开放 性 出 发 ， 商 业 性 期 刊 出 版 商 由 于 文献 数据 收集 范围 
广 、 结 构 化 质量 高 成 为 科研 人 员 的 首选 ， 常 用 数据 库 有 Wiley、Elsevier、 
Scoups 等 ， 材 料 和 化 学 领域 常用 特色 数据 有 ACS, the American Chemical 
Society, the Royal Society of Chemistry 等 ， 开 放 数 据 平台 因 其 数据 易 


N 


获取 性 和 数据 积累 量 大 的 优势 支持 科研 智能 化 研究 ， 典 型 数据 库 包括 Arxiv 
文献 数据 平台 和 Figshare、Zenodo 等 通用 性 数据 共享 平台 。 

总 体 而 言 , 科研 智能 化 研究 是 以 文本 数据 、 数值 数据 和 图 像 数 据 为 核心 ， 
从 商业 性 和 开源 性 平台 获取 所 需 数 据 。 智 能 化 研究 对 高 质量 数据 的 要 求 使 得 
科研 人 员 将 数据 收集 途径 转 回 期 刊 出 版 商 ， 但 存在 数据 库 使 用 费用 较 高 的 缺 
点 ， 对 小 型 科研 机 构 或 团队 获取 数据 不 友好 ; 开源 性 收集 途径 由 于 其 数据 易 
获取 性 为 多 数 研 究 者 青睐 ， 但 存在 数据 结构 不 一 致 、 数 据 质 量 低 的 问题 。 
(3) 数据 收集 方法 与 数据 自生 成 式 集 成 

数据 收集 方法 是 在 科研 人 员 确 定数 据 获 取 途 径 后 借助 一 定 的 技术 批量 
收集 所 需 数据 。 科研 智能 化 研究 所 需 数据 量 大 , 科研 人 员 需 要 借助 采集 软件 、 
疏 虫 代码 或 数据 平台 提供 的 APT 接口 批量 朴 取 或 下 载 所 需 数据 ， 以 提高 数据 
收集 效率 。 

采集 软件 是 已 经 封装 好 的 爬虫 平台 ， 该 软件 属于 “傻瓜 式 ” 采 集 模 式 ， 
可 用 于 网 络 数据 采集 和 文献 数据 采集 ， 例 如 八 爪 鱼 采 集 器 、Zetero、SciHub 
Pro 等 ， 现 有 疏 虫 代码 是 基于 python 框架 编写 的 ， 典 型 工具 包 有 Scrapy、 
BeautifulSoup, Requests-HTML, Selenium 等 ; 数据 自生 成 式 集成 是 在 机 器 
人 化 学 家 或 材料 学 家 做 完 实验 后 将 实验 材料 的 组 成 、 比 例 和 实验 结果 数据 存 
储 到 数据 库 或 表格 中 以 供 AT 模型 学 习 使 用 。 


.3 数据 处 理 与 分 析 


数据 处 理 与 分 析 是 科研 智能 化 研究 的 核心 环节 ， 目 的 是 保证 输入 数据 质 
量 和 结构 的 一 致 性 ， 转 化 为 机 器 可 理解 形式 ， 以 建立 研究 目标 与 数据 之 间 的 
关联 。 从 使 用 的 数据 类 型 和 研究 目的 出 发 将 材料 和 化 学 领域 的 数据 处 理 与 分 
析 分 为 以 文本 型 数据 为 核心 、 以 实验 材料 为 核心 和 以 数值 型 数据 为 核心 的 三 
大 类 数据 处 理 与 分 析 模 式 。 
(1) 以 文本 型 数据 为 核心 的 数据 处 理 与 分 析 模 式 

以 文本 型 数据 为 核心 的 数据 处 理 与 分 析 模 式 是 从 科技 文献 和 专利 文本 
中 抽取 实验 关键 元 素 、 实 验 条 件 进行 组 合并 将 其 转化 为 机 器 可 读 形 式 ， 主 要 
包括 实验 段落 (句子 ) 识别、 数据 标注 、 实 体 和 关系 抽取 、 实 验 文本 增强 、 
数据 表征 和 关联 挖掘 /数据 生成 六 大 处 理 环节 。 

在 科技 文献 和 专利 中 存在 大 量 与 实验 合成 不 相关 的 见 余 文本 信息 ,增加 
了 实验 合成 信息 提取 的 难度 。 因 此 , 需要 确定 与 实验 合成 相关 度 高 的 段落 CJ 
子 ) ， 缩 小 文本 提取 的 空间 。 识 别 方法 包括 基于 规则 的 方法 和 基于 机 器 学 习 
/深度 学 习 的 方法 两 类 。 基 于 规则 的 方法 需要 研究 人 员 事 先 了 解 实验 段落 (名 
TO 的 关键 特征 以 构建 识别 规则 ， 例 如 特定 领域 的 实验 合成 物质 、 属 性 标识 
符 、 指 定 值 等 ， 简 单 规则 的 构建 以 关键 词 匹配 ”为 代表 ， 复 杂 规 则 的 构建 以 
模式 匹配 “和 正则 表达 式 ” 为 代表 。 该 方法 易于 理解 和 解释 ， 研 究 人 员 可 以 
快速 实验 并 修改 ,但 当 实 验 段落 存在 大 量变 量 或 约束 条 件 变 多 时 其 灵活 识别 
能 力 差 。 与 基于 规则 的 方法 相 比 ， 基 于 机 器 学 习 / 深 度 学 习 的 方法 具备 较 强 
的 自主 学 习 和 灵活 适应 能 力 ， 通 过 学 习 实 验 段落 (句子 ) 特征 进行 分 类 ， 可 
分 为 基于 传统 机 器 学 习 的 方法 和 基于 深度 学 习 的 方法 。 基 于 传统 机 器 学 习 的 
实验 段落 (句子 ) 方法 以 分 类 方法 为 核心 ， 需 要 少量 人 工 特征 标注 数据 ， 包 


括 适 用 于 高 维度 二 分 类 方法 的 逻辑 回归 分 类 、 适 用 于 低 维度 多 分 类 的 随机 
森林 方法 "和 适用 于 高 维度 多 分 类 的 贝 叶 斯 方法 ””。 基 于 深度 学 习 的 方法 以 
其 学 习 的 速度 和 精准 度 突出 ， 需 要 大 量 训练 数据 自主 学 习 实验 段落 特征 ， 但 
其 调 参 工作 复杂 ， 模 型 可 解释 性 差 ， 包 括 适 用 于 捕获 长 序列 语义 关系 的 RNN 
模型 "和 适用 于 自 监督 并 行 计算 的 BERT 模型 ” 。 

标注 数据 是 高 性 能 模型 学 习 的 基础 ， 帮 助 模 型 理解 上 下 文 信息 ， 文 本 型 
数据 抽取 训练 标签 数据 稀缺 , 在 对 数据 进行 抽取 之 前 需要 对 实验 段落 进行 标 
注 以 构建 抽取 模型 所 需 的 训练 数据 。 随 着 AI 模型 发 展 对 数据 标注 的 重视 ， 
专业 化 的 数据 标注 团队 和 平台 相继 出 现 ， 现 有 实验 文本 标注 以 众 包 标注 和 人 
工 标注 形式 为 主 , 知名 众 包 标注 平台 以 国外 Amazon Mechanical TurkCMTurk) 
为 主 ， 避 免 出 现 团 队 标注 效率 低 的 问题 ， 人 工 标注 通过 领域 专家 对 小 型 数据 
集 标注 ， 适 用 于 标注 数据 量 小 的 情况 。 

实体 和 关系 抽取 是 从 实验 段落 中 识别 产物 、 反 应 物 、 溶 剂 等 实体 和 相应 
的 实验 条 件 及 实体 -实体 和 实体 -实验 条 件 之 间 的 关系 。 实 体 和 关系 抽取 方法 
包括 集成 抽取 工具 和 基于 深度 学 习 的 方法 两 类 。 集 成 抽取 工具 有 0SCAR4"、 
ChemicalTagger ", ChemDataExtractor ^, 其 中 0SCAR4 适用 于 化 学 实体 识 
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模型 (MEM) 三 类 实体 识别 器 识别 化 学 实体 ，ChemicalTagger 专注 于 专利 
的 实验 部 分 ， 以 文本 字符 串 作 为 输入 利用 集成 的 0CSAR 工具 和 基于 正则 表达 
式 的 规则 方法 识别 化 学 实体 ， 并 结合 基于 语法 结构 的 短语 解析 器 来 识别 操作 
短语 和 实体 之 闻 的 关系 以 生成 结构 化 的 反应 路 径 图 ， 该 工具 依赖 于 人 工 构建 
的 规则 ， 对 语言 使 用 或 预 处 理 引 入 噪声 敏感 ， 在 科技 文献 等 非 专利 数据 上 的 
可 扩展 性 差 ，ChemDataExtractor 是 一 个 端 到 端的 文本 挖掘 工具 ， 对 PDF. 
HTML 和 XML 输入 文件 利用 集成 的 条 件 随 机 场 (CRF ) 、 基 于 规则 的 短语 解析 
器 和 表 解 析 器 从 科技 文献 文本 和 表格 中 提取 化 学 实体 、 属 性 、 测 量 值 和 程序 
以 构建 数据 集 。 基 于 深度 学 习 的 方法 包括 基于 序列 的 抽取 方法 
一 Bi-LSTM-CRF" 和 基于 预 训练 语言 模型 的 抽取 方法 ~-BERT-CRF" 。 基 于 序 
列 的 抽取 方法 --Bi-LSTM-CRF 利用 Bi-LSTM 捕获 长 文本 句子 中 单词 的 上 下 文 
语义 关系 ， 结 合 CRF 模型 预测 输入 句子 的 最 佳 标签 链 。 基 于 预 训练 语言 模型 
的 抽取 方法 一 BERT-CRF 利用 语言 模型 有 效 获取 文本 中 的 上 下 文 信息 并 通过 
抽取 任务 进行 监督 微调 ， 结 合 CRF 模型 进行 抽取 。 

在 缺乏 训练 数据 的 情况 下 需要 扩充 已 有 数据 量 添加 负 样 本 数据 满足 模 
型 学 习 需 求 ， 以 提高 模型 的 泛 化 能 力 ， 避 免 出 现 欠 拟 合 或 过 拟 合 现象 。 文 本 
型 数据 的 增强 是 对 实验 合成 序列 的 “改造 ”， 通 过 蔡 换 序列 中 化 合 物 名 称 、 
数量 、 时 间 、 温 度 、 体 积 等 实体 和 属性 以 增强 实验 合成 数据 。 

数据 表征 是 数据 和 算法 模型 间 的 连接 点 ， 将 实验 合成 数据 转 为 机 器 可 理 
解 形式 。 数据 表 征 方 法 主要 包括 Word2Vec、EMLo、BERT 三 类 , 其 中 Word2Vec 
由 于 其 语义 向 量 表征 低 维 度 的 特点 在 科研 智能 化 研究 中 常 使 用 , 但 该 模型 生 
成 的 词 向 量 属 于 静态 表征 , 不 能 解决 同义词 问题 , EMLo 模型 采用 双 层 双向 的 
LSTM 捕获 上 下 文 信息 进行 编码 ， 属 于 动态 表征 ， 但 由 于 LSTM 本 身 的 长 距离 
依赖 性 问题 无 法 捕获 长 序列 ,并且 该 模型 不 具备 并 行 处 理 的 能 力 ; BERT 模型 


是 基于 深度 双向 Transformer 的 预 训练 模型 ,通过 利用 单词 上 下 文 信息 表征 ， 
属于 动态 表征 解决 了 一 词 多 义 问 题 , 该 模型 具备 强大 的 并 行 运算 和 迁移 学 习 
能 力 常用 于 领域 模型 的 预 训练 。 

最 后 根据 构建 的 标准 实验 数据 集 利 用 机 器 人 自动 合成 新 数据 或 利用 AI 
算法 学 习 实 验 物质 及 属性 、 实 验 条 件 参数 之 间 的 关联 为 合成 预测 服务 。 数 据 
关联 方法 主要 以 属性 预测 为 核心 ， 主 要 包 插 分类、 回归 传统 机 器 学 习 方 法 和 
数据 生成 的 深度 学 习 方法 ,传统 分 类 和 回归 机 器 学 习 方 法 有 适用 于 离散 属性 
预测 的 支持 向 量 机 CSVMO “和 随机 森林 回归 模型 ”以 及 适用 于 连续 属性 预 
测 的 高 斯 回归 过 程 ”， 深 度 学 习 方法 适用 于 实验 合成 条 件 和 目标 联合 概率 分 
布 学 习 的 变 分 自 编 码 器 "”。 传 统 机 器 学 习 方 法 适用 于 人 工 提 取 特征 充分 、 数 
据 和 计算 资源 受 限 的 情况 ， 模 型 方法 直观 、 易 于 实现 ， 例 如 科研 人 员 根 据 一 
组 给 定 的 沸石 合成 参数 数据 (包括 组 合 元 素 相关 的 数值 类 型 一 数值 、 范 围 或 
变量 ; 合成 操作 动作 和 条 件 ) 利用 随机 森林 模型 对 沸石 材料 结构 特性 进行 建 
E, 深度 学 习 方 法 直接 对 原始 高 维 数据 进行 隐 含 结构 与 关联 性 的 挖掘 突破 
了 人 工 提取 特征 的 局 限 性 , 但 存在 模型 消耗 资源 多 、 结构 复杂 和 不 可 解释 性 ， 
例如 科研 人 员 借 助 变 分 自 编 码 器 将 合成 参数 压缩 为 低 维 表示 建立 合成 条 件 
和 前 体 材 料 之 间 的 概率 分 布 关系 。 

(2) 以 实验 材料 为 核心 的 数据 处 理 与 分 析 模 式 

以 实验 材料 为 核心 的 数据 处 理 与 分 析 模 式 是 在 科研 人 员 提 供 的 实验 材 
料 基 础 上 利用 机 器 人 /自动 实验 装置 对 实验 材料 进行 组 合 实验 构建 实验 结果 
数据 空间 ， 由 AI 模型 构建 实验 组 合 与 结果 之 间 的 函数 关联 以 学 习 并 迭代 优 
化 实验 组 合 条 件 ， 该 模式 的 核心 环节 在 于 合成 条 件 优 化 学 习 ， 以 寻找 最 佳 实 
验 组 合 条 件 。 

从 数据 空间 构建 是 否 基 于 已 有 知识 的 角度 可 分 为 自生 成 式 自动 合成 和 
学 习 式 自动 合成 。 自 生成 式 自动 合成 是 指 机 器 人 根据 已 有 材料 进行 结合 合成 
后 产生 结果 建立 了 合成 材料 、 条 件 和 实验 结果 之 间 的 函数 关系 ， 以 供给 模型 
进行 迭代 优化 ， 其 迭代 优化 数据 是 以 实验 材料 的 组 合 和 机 占 实 验 结果 为 核 
(^. Burger, B 等 研制 了 一 个 可 移动 AT 化 学 机 器 人 ， 利 用 16 个 化 学 样品 
进行 实验 并 使 用 气相 色谱 仪 分 析 实 验 结果 ， 基 于 实验 样品 和 结果 数据 利用 贝 
叶 斯 优化 算法 进行 迭代 学 习 ; 学 习 式 合成 是 指 根据 已 有 实验 合成 数据 空间 筛 
选 合适 的 实验 材料 组 合 条 件 指导 机 器 人 开展 自动 合成 。Coley C W 等 ”基于 
有 反应 转化 规则 空间 ， 利 用 神经 网 络 模 型 往 选 可 用 目标 分 子 结构 并 评估 反应 质 
量 。 实 验 材料 组 合式 的 处 理 与 分 析 以 反应 条 件 优 化 为 核心 环节 ， 包 括 适 用 于 
二 分 类 的 线性 判别 分 析 〈LDA) “和 适用 于 属性 独立 多 分 类 的 贝 叶 斯 优化 算 
法 ， 但 线性 判别 分 析 存 在 不 适用 于 类 别 不 均 的 数据 分 析 问 题 ， 贝 叶 斯 优化 算 
法 也 存在 计算 量 大 ， 调 参 复杂 的 问题 。 

(3) 以 数值 型 数据 为 核心 的 数据 处 理 与 分 析 模 式 

以 数值 型 数据 为 核心 的 数据 处 理 与 分 析 模 式 通 过 利用 AI 模型 的 数据 表 
征 学 习 和 计算 能 力 探索 材料 /化 学 数据 结构 、 组 成 和 特性 之 间 的 复杂 空间 关 
联 ， 以 对 实现 对 三 者 的 预测 或 生成 ， 主 要 包括 数据 清洗 、 规 则 抽取 、 数 据 增 
强 、 特 征 工 程 和 关联 挖掘 五 大 环节 。 


—- 


数据 清洗 是 剔除 数据 集中 存在 缺失 、 错 误 和 重复 数据 或 对 数据 不 同 表 示 
形式 进行 统一 化 。 数 据 清 洗 方 法 包括 降 品 和 标准 化 两 类 ， 降 噪 基于 统计 学 方 
法 ， 利 用 神经 网 络 灾难 遗忘 策略 骂 (catastrophic forgetting) 剔除 学 习 
率 低 的 异常 化 学 反应 数据 ， 提 高 了 前 向 预测 和 逆 辐 合成 模型 的 性 能 。 此 外 ， 
由 于 不 同 数据 库 选 择 描述 分 子 结构 的 原子 起 点 不 同 导 致 不 同 分子 结 构 
SMILES 表示 的 产生 ， 因 此 需要 将 其 转化 为 统一 的 规范 化 格式 以 提出 重复 分 
子 ， 常 用 工具 包 包 括 Python LE &--RDKit 和 Java T.R-CDK ^, RDKit 
工具 包 还 可 以 在 分 子 标准 化 基础 上 进一步 计算 分 子 描 述 符 的 功能 ， 例 如 化 合 
物 结构 相似 性 计算 、 分 子 构象 优化 、 分 子 指纹 生成 等 。CDK 工具 包 在 数据 规 
范 化 基础 上 还 可 以 搜索 化 合 物 子 结构 、3D 图 像 生 成 、 分 子 指纹 生成 等 。 

规则 抽取 是 在 学 习 化 学 反应 中 反应 物 和 产物 之 间 的 原子 映射 信息 基础 
上 识别 潜在 的 反应 中 心 。 现 有 抽取 技术 是 基于 深度 神经 网 络 的 无 监督 方法 ， 
典型 模型 是 Transformer 模型 ， 由 于 其 不 依赖 于 标注 数据 的 无 监督 特性 和 对 
不 平衡 反应 类 型 的 适应 性 在 规则 提取 中 表现 出 巨大 的 潜力 ， 例 如 
Transformer 模型 从 未 标注 化 学 反应 数据 中 学 习 了 原子 在 化 学 反应 中 的 排列 
变化 规律 以 提取 反应 规则 。 

数据 增强 借助 采样 方法 扩充 小 样本 材料 /化 学 数据 。 数 据 增强 方法 包括 
基于 神经 网 络 的 数据 增强 方法 、 主 动 学 习 和 迁移 学 习 方 法 ”。 基 于 神经 网 络 
的 方法 通过 无 监督 学 习 采 样 生成 大 量 新 数据 ， 包 括 生 成 对 抗 网 络 ”、 变 分 自 
动 编码 器 ”。 主 动 学 习 ” 利用 机 器 学 习 从 大 量 未 标注 数据 选取 有 价值 样本 进 
行 采样 以 代表 大 量 未 标注 数据 。 迁 移 学 习 通 过 迁移 相关 领域 的 知识 提高 了 模 
型 对 小 数据 的 预测 性 能 ， 如 Gupta 等 ”基于 ElemNet 模型 在 0QMD 源 数据 集 
进行 预 训练 ， 最 后 迁移 至 目标 JARVIS 数据 集中 进行 微调 材料 属性 。 

特征 工程 是 选择 与 研究 目标 相关 的 数据 描述 符 表征 材料 /化 学 数据 特征 
供给 AI 模型 学 习 。 特 征 工程 包括 特征 选择 和 特征 转换 两 大 类 ， 特 征 选择 是 
间 从 高 维度 材料 任务 相关 特征 中 去 除 元 余 特 征 降 低 特征 空间 维度 ， 以 提高 模 
型 的 预测 精度 和 泛 化 能 力 ， 包 括 过 滤 式 、 包 庄 式 和 内 入 式 三 类 。 过 滤 式 方法 
是 基于 统计 学 和 互信 息 的 方法 对 特征 的 重要 性 进行 等 级 排名 ， 该 方法 计算 时 
间 效 率 高 ， 但 未 考虑 特征 之 间 的 相关 性 ， 常 用 方法 包括 相关 系数 ”和 互信 息 
075 包裹 式 方法 在 特征 选择 过 程 中 结合 了 监督 学 习 算 法 对 特征 子 集 进行 评 
佑 ， 在 评估 过 程 中 考虑 特征 之 间 的 相关 性 和 依赖 性 ， 但 存在 高 维特 征 空 间 计 
算 复杂 度 高 的 问题 ”， 以 支持 向 量 机 (SVM) -递归 特征 消除 (RFE) 方法 
为 代表 。 骨 入 式 方法 租 入 到 机 器 学 习 模型 中 ,特征 选择 和 模型 训练 过 程 无 明 
显 区 分 ， 常 用 方法 包括 基于 惩罚 项 的 方法 和 基于 树 的 方法 ”， 特征 转换 是 指 
将 高 维特 征 空 间 映 射 到 低 维 特征 空间 ， 实 现 特征 降 维 ， 包 括 主 成 分 分 析 
(PCA)〉、 线 性 判别 分 析 等 方法 ™。 

关联 挖掘 通过 探索 结构 、 组 成 和 性 能 之 间 的 关联 以 满足 预测 需求 。 关 联 
关系 挖掘 的 方法 包括 以 卷 积 神经 网 络 构建 的 图 结构 关联 模型 和 以 Bi-LSTM 和 
Transformer 模型 为 基础 构建 的 Seq2Seq 深度 学 习 模 型 ， 后 者 凭借 其 长 序列 
远 距 离 依 赖 的 学 习 优 势 构建 了 化 学 领域 反应 物 、 试 剂 、 众 化 剂 和 生成 物 的 “ 翻 
译 ” 关 系 。 卷 积 神经 网 络 擅长 处 理 图 像 数 据 ， 能够 对 化 合 物 结构 图 进行 关联 ， 
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将 原子 和 化 学 键 表 示 为 分 子 图 中 的 节点 和 边 ， 识 别 反应 物 和 产物 原子 对 之 间 
的 化 学 键 变化 ， 以 建立 反应 物 和 产物 之 间 的 关联 ”; seq2seq 模型 擅长 处 理 
文本 类 “翻译 ”问题 ， 其 并 行 计算 优势 提高 了 模型 的 效率 ， 该 模型 将 非 数 值 
类 型 的 化 学 式 转化 为 机 器 可 识别 形式 ， 例 如 通过 物理 化 学 描述 符 、 分 子 指纹 
等 方式 将 分 子 表示 为 字符 串 ， 建 立 产物 字符 串 和 反应 物 字 符 串 之 间 的 关联 以 
实现 化 学 反应 的 逆向 合成 路 线 预测 目标 。 


.4 数据 生成 与 出 版 


数据 生成 与 出 版 是 指 成 果 数 据 和 科学 数据 的 生成 与 出 版 工作 。 
(1) AI 参与 科研 数据 生成 工作 

科研 智能 化 趋势 下 AI 模型 也 积极 参与 到 研究 论文 的 撰写 工作 中 , 主要 涉 
及 论文 标题 、 摘 要 和 论文 生成 任务 。 以 最 新 发 布 的 ChatG6PT" 为 典型 代表 ， 
利用 其 生成 式 AI 模型 的 优势 基于 庞大 的 领域 文本 训练 数据 集 ， 能 够 根据 输 
入 主题 和 关键 词 参与 完整 论文 生成 过 程 ， 包 括 论 文 写 作 角 度 和 思路 、 研 究 方 
法 或 工具 查询 、 论 文大 纲 、 相 关 参 考 文献 资源 、 生 成 完整 论文 内 容 、 润 色 完 
FALAR, WTAE. 

科学 数据 的 生成 不 拘泥 于 研究 人 员 提 交 的 实验 数据 和 高 通 量 计算 数据 ， 
也 涉及 科技 文献 和 专利 中 包含 的 相关 数据 。 早 期 科学 数据 库 对 科技 文献 和 专 
利 以 手工 摘录 方式 为 主 ， 随 着 海量 文献 和 专利 的 发 布 和 积累 ， 手 工 方式 显露 
出 耗 时 且 成 本 高 的 缺点 ， 数 据 库 构建 也 开始 转向 自动 化 方式 。 计 算数 据 不 同 
于 以 往 的 高 通 量 筛选 和 计算 产生 的 模拟 数据 ， 科 研 智能 化 趋势 下 计算 数据 是 
以 AI 模型 计算 产生 的 大 量 数 据 。 此 外 ，AI 模型 也 参与 到 代码 生成 工作 中 借 
助 生 成 式 AI 模型 进行 预 训练 和 微调 以 实现 生成 任务 。 
(2) AI 参与 科研 数据 出 版 审核 工作 

面 对 指 数 级 增长 的 科学 出 版 物 投稿 量 ， 对 出 版 工作 是 一 个 巨大 的 挑战 ， 
其 高 质量 评审 工作 是 一 个 耗 时 耗 力 的 过 程 ， 为 解决 出 版 繁重 的 评审 压力 并 提 
高 科研 数据 出 版 速度 和 效率 ， 引 入 了 机 器 学 习 模 型 参与 审 稿 任务 分 配 和 评审 
意见 撰写 工作 。 如 Charlin 等 “设计 了 投递 论文 分 配 工具 一 Toronto Paper 
Matching System (TPMS), ， 通 过 比较 投稿 论文 和 审 稿 人 已 发 表 研 究 成 果 〈 代 
表 审 稿 人 的 专业 知识 ) 之 间 的 文本 以 计算 投稿 论文 和 审 稿 人 专业 知识 之 间 的 
相关 性 。Yuan 等 “利用 BART 预 训练 模型 学 习 国际 表征 学 习 大 会 (ICLR) 和 


NeurIPS 会 议论 文 与 其 评审 意见 之 间 的 “评审 翻译 规律 ”。 
.5 数据 存储 与 共享 


数据 存储 是 对 科研 项 目 完 成 后 产 出 的 科研 成 果 与 相关 科研 数据 进行 有 序 
化 管理 ， 以 实现 科研 数据 的 可 发 现 、 可 获取 和 可 重用 。 数 据 存储 与 共享 政策 
主要 是 由 资助 机 构 和 期 刊 出 版 商 直 接 规定 ， 其 中 资助 机 构 是 对 资助 项 目 衍生 
的 研究 论文 和 相关 科研 数据 汇 交 和 共享 进行 规定 ， 以 国家 层面 的 政策 为 代 
表 ， 包 括 欧盟 Horizon 2020 政策 、 中 国 的 《科技 计划 形成 的 科学 数据 汇 交 
技术 与 管理 规范 》 等 。 期 刊 出 版 商 是 在 获取 研究 论文 的 转让 权 后 针对 论文 相 
关 的 科研 数据 发 布 了 存储 与 共享 管理 政策 。 两 者 的 最 终 目标 是 实现 适应 科研 
智能 化 研究 的 科研 数据 存储 与 共享 平台 的 建设 。 

在 数据 存储 与 共享 原则 方面 , 现 有 科研 数据 存储 与 共享 平台 是 基于 FAIR 


N 


原则 侧重 于 数据 发 布 与 共享 ， 在 利用 方面 稍 显 不 足 ， 以 数据 汇聚 / 汇 交 为 主 
要 数据 共享 模式 ,不 适用 于 科研 智能 化 研究 对 多 源 异 构 和 关联 性 数据 存储 与 
共享 需求 。 面 对 数据 融合 和 关联 需求 ，PARIS 共享 利用 原则 应 运 而 生 ， 从 机 
器 可 处 理 分 析 、 在 线 问 答 访 问 、 数 据 安全 可 靠 、 数 据 关 联 与 迁移 性 以 及 数据 
的 有 效 供给 五 大 方面 出 发 ， 解 决 了 科研 数据 分 布 式 、 孤 岛 化 、 差 异化 等 问题 
以 实现 科研 数据 的 高 质量 供给 需求 。 

在 数据 存储 与 共享 政策 方面 ， 开 放 数 据 平 台 发 布 的 科研 数据 政策 相 较 于 
期 刊 出 版 商 存 在 规范 性 差 、 限 制 性 小 的 问题 ， 对 数据 共享 无 强制 性 要 求 ， 并 
且 没 有 制定 共享 数据 的 相关 规范 。 与 国外 期 刊 出 版 商 相 比 ， 我 国 期 刊 出 版 商 
(以 中 国 科 学 出 版 社 为 代表 ) 的 科研 数据 政策 规定 较为 泛 化 ， 尤 其 在 数据 存 
储 库 指 南方 面 规定 是 借鉴 国外 相关 出 版 商 发 布 的 相关 政策 。 

在 数据 存储 与 共享 平台 建设 方面 ， 包 括 通用 性 、 领 域 性 和 自 建 数据 库 三 
类 ， 其 中 通用 性 和 领域 性 数据 库 以 知名 开放 性 数据 平台 为 主 ， 如 Figshare、 
GitHub, PubChem 等 。 此 外 ， 科 研 智能 化 研究 存在 现 有 科研 数据 及 其 结构 与 
研究 需求 不 匹配 的 情况 以 及 对 研究 预测 结果 的 批量 数据 存储 和 共享 需求 ， 因 
此 ， 科 研 人 员 通 过 自 建 数据 库 来 促进 科研 数据 存储 和 共享 ， 典 型 案例 是 中 科 
大 化 学 机 器 人 研究 工作 所 。 中 科大 研究 团队 为 满足 化 学 机 器 人 对 文献 中 化 学 
反应 知识 的 学 习 ， 构 建 了 存储 有 1120 万 个 包括 反应 物 和 生成 物 结构 、 名 称 、 
试剂 、 溶 剂 、 众 化 剂 、 反 应 温度 等 环境 参数 的 化 学 反应 数据 库 。 
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.6 数据 再 利用 


数据 再 利用 是 对 研究 成 果 的 二 次 利用 ， 支 持 新 一 轮 的 数据 分 析 与 挖掘 工 
作 ， 是 新 一 轮 智能 化 研究 的 起 点 。 从 研究 成 果 再 利用 角度 出 发 ， 科 研 智 能 化 
研究 本 刁 就 是 对 已 有 数据 的 再 开发 和 使 用 ， 文 本 文献 的 再 利用 表现 为 新 一 轮 
科技 文献 的 深度 挖掘 和 专利 文本 挖掘 数据 的 再 利用 ， 科 学 数据 的 再 利用 表现 
为 数据 库 与 已 发 布 数据 集 的 重复 利用 。 从 数据 集 重复 使 用 角度 ， 科 研 智 能 化 
研究 中 科技 文献 数据 集 由 于 其 易 获取 性 和 内 容 丰 富 性 已 经 成 为 数据 再 利用 
的 核心 。 科 学 数据 的 再 利用 通过 借助 数据 共享 平台 对 数据 库 数据 复 用 率 进 行 
分 析 , 也 即 是 通过 数据 的 浏览 、 下 载 和 引用 量 评估 数据 集 的 价值 性 和 新 颖 性 ， 
例如 Figshare、Zenodo 等 在 数据 集 界 面 提供 数据 统计 服务 。 


3 ”科研 智能 化 趋势 下 科研 数据 作用 


AI for science 趋势 是 在 数据 密集 型 科研 范式 下 萌生 并 发 展 ， 数 据 是 研 
究 的 基础 和 发 现 的 源 果 ，AI 技术 是 研究 的 发 动机 。 科 研 智 能 化 以 AI 模型 为 
技术 核心 ， 模 型 参数 需要 训练 数据 以 捕获 多 样 化 领域 知识 特征 ， 即 挖掘 已 有 
知识 空间 的 关键 信息 ， 构 建 知 识 路 径 。 数 据 量 越 大 ，AI 模型 学 习 到 的 隐 含 3 
键 信息 越 全 面 ， 关 联 规则 也 越 准确 。 因 此 ， 高 质量 、 正 负 样 本 结合 、 多 源 异 
构 性 、 结 构 化 科研 数据 对 推动 科研 智能 化 研究 发 展 具 有 重要 作用 。 

(1) 高 质量 的 科研 数据 是 科研 智能 化 研究 准确 率 的 “加 速 器 ” 

人 工 智 能 和 机 器 学 习 领 域 权 威 学 者 多 次 强调 : “以 数据 为 中 心 的 AI”， 
智能 科学 家 也 同样 重视 科研 数据 质量 对 知识 发 现 的 影响 ， 持 续 探索 构建 高 质 
量 数据 集 的 方式 和 技术 。 高 质量 数据 不 仅 能 够 降低 数据 采集 和 预 训练 环节 的 


复杂 度 ， 而 且 也 能 够 提高 AI 模型 的 性 能 。 

现 有 知名 科研 数据 库存 在 多 样 化 的 收集 途径 ， 对 科研 数据 的 质量 把 控 依 
旧 存 在 不 足 之 处 。 比 如 ， 科 研 数 据 的 收集 未 充分 考虑 人 工 智能 需求 ， 存 在 数 
据 元 余 、 标 注 数据 较 少 、 数 据 一 致 性 或 标准 化 等 问题 ， 不 适合 AI 模型 学 习 。 
因此 ， 科 研 智能 化 研究 仍然 需要 关注 高 质量 领域 数据 的 处 理 和 构建 。 
(2) 正 样本 指示 模型 学 习 的 方向 ， 负 样本 设 定 模型 学 习 的 范围 

科研 数据 中 的 正 样本 数据 的 作用 在 于 训练 AI 模型 学 习 数 据 中 存在 的 共 
性 特征 ， 负 样本 是 指 科学 实验 中 的 非 成 功 数据 或 低 质 量 数据 ， 也 称 为 阴性 数 
据 ， 起 到 对 比 区 分 的 作用 ， 划 定 共性 特征 学 习 的 边界 ， 避 免 模型 重复 性 捕获 
错误 特征 ， 以 改进 AI 模型 知识 发 现 中 存在 的 错误 。 

现 有 数据 库 中 的 科研 数据 大 多 为 正 样本 数据 ， 不 能 满足 科研 智能 化 研究 
对 钠 样 本 数据 的 需求 ， 负 样本 挖 据 仍 然 依 靠 科研 小 组 收集 自身 研究 团队 在 科 
研 过程 中 的 “失败 数据 ”， 负 样本 数据 收集 耗 时 、 数 据 量 较 小 。 因 此 ， 科 研 
智能 化 研究 需要 重视 负 样本 数据 的 收集 、 存 储 和 发 布 。 

(3) 多 源 异 构 数 据 是 科研 智能 化 研究 全 面 性 的 “保护 舱 ” 

科研 智能 化 趋势 下 的 知识 发 现 过 程 是 一 个 复杂 问题 求解 过 程 ， 需 进一步 
分 解 为 不 同 层 级 子 问题 简化 求解 复杂 度 。 在 问题 目标 明确 基础 上 ， 分 解 问题 
求解 过 程 涉 及 数据 层级 及 属性 参数 ， 来 构建 求解 函数 。 异 构 数 据 拓展 了 对 问 
题 理 解 的 角度 或 层级 ， 多 源 数据 丰富 了 不 同 层级 属性 参数 信息 ， 例 如 材料 本 
身 的 性 质 特征 与 原子 尺度 的 原子 结构 、 电 子 结构 、 离 子 输 运 对 等 数据 相关 ， 
材料 性 质 对 外 界 环 境 的 相应 与 外 场 条 件 的 变化 存在 函数 关系 等 ”。 

多 源 异 构 性 是 指 科研 数据 的 来 源 的 多 样 性 与 格式 、 呈 现形 式 的 异 构 性 。 
首先 ， 科 学 数据 主要 是 从 科技 文献 和 专利 文本 的 实验 文本 、 表 格 、 图 像 中 抽 
取 ， 文 本 、 表 格 和 图 像 表现 出 不 同 的 结构 特征 ， 其 次 ， 从 文本 中 抽取 的 科学 
数据 不 仅 包括 数值 型 数据 还 包括 图 像 型 数据 、 三 维 立 体 结 构 数 据 等 。 这 些 多 
源 多 斥 度 数据 能 够 助力 智能 科学 家 多 渠道 多 途径 了 解 信息 并 挖掘 数据 关联 ， 
以 材料 领域 为 例 ， 多 源 多 尺度 数据 助力 探索 微观 - 介 观 -宏观 尺度 的 表征 与 天 
联 关系 。 

(4). 数据 结构 化 是 实现 人 机 互动 的 桥梁 

数据 结构 化 是 指 抽取 后 的 数据 需 按 照 一 定 的 层次 和 语义 结构 组 合 ， 形 成 
易于 理解 和 使 用 的 标准 化 格式 ， 而 标准 化 的 最 终 目的 是 数据 实现 机 器 可 理解 
性 和 可 使 用 性 。 

目前 文本 文献 是 以 半 结 构 化 形式 呈现 最 新 研究 数据 和 信息 ， 同 类 型 领域 
科研 数据 分 散 于 大 量 科技 文献 和 专利 文本 中 ， 以 科研 人 员 可 阅读 和 可 理解 形 
式 出 现 ， 并 且 由 于 科研 人 员 书 写 习 惯 的 不 同 ， 文 献 与 文献 之 间 的 科研 数据 表 
述 和 组 织 呈 现 出 差异 。 因 此 ， 需 要 构建 标准 化 语言 和 组 织 格式 以 规范 化 文献 
中 的 相关 数据 ， 满 足 数据 密集 型 科研 范式 和 科研 智能 化 趋势 下 科研 数据 的 可 
获取 性 、 易 用 性 、 机 器 可 理解 性 和 重用 性 。 


4 ”科研 智能 化 趋势 下 科研 数据 潜在 需求 
从 上 述 科研 智能 化 趋势 下 科研 数据 处 理 流程 分 析 过 程 中 发 现 ，AI 模型 在 
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科学 研究 发 展 中 表现 出 对 多 源 异 构 数据 的 集成 、 细 粒度 数据 结构 化 、 人 机 互 
动 数据 表示 形式 的 探索 、 数 据 关 联 化 挖掘 和 科研 数据 类 型 丰富 化 的 需求 。 

(1) 多 源 异 构 数据 集成 

多 源 异 构 数 据 保 证 了 目标 数据 及 属性 获取 的 全 面 性 ， 从 多 角度 刻画 目标 
数据 知识 ， 有 利于 AI 模型 特征 学 习 的 全 面 化 。 从 上 述 案例 分 析 中 发 现 ， 科 
研 智 能 化 研究 数据 来 源 于 多 个 多 类 型 数据 库 ， 例 如 AlphaFold 模型 在 利用 
PDB 蛋白 质 结 构 数 据 库 基础 上 结合 Uniclust30 蛋白 质 序列 数据 以 学 习 和 蛋白 
质 结构 组 建 的 规则 。 由 此 ， 可 以 看 出 科研 智能 化 趋势 下 AI 模型 对 多 源 异 构 
集成 数据 的 需求 。 多 源 异 构 数 据 的 集成 不 仅 有 利于 AI 模型 的 学 习 ， 也 有 利 
于 便利 科研 人 员 收 集 数据 ， 提 高 科研 效率 。 

(2) 细 粒 度数 据 结构 化 

科研 智能 化 趋势 下 AT 模型 更 加 注重 数据 内 部 隐 性 规则 学 习 ， 也 即 是 需 
要 细 粒 度 挖掘 数据 特征 并 关联 不 同类 型 数据 ,构建 科研 人 员 和 机 器 可 理解 的 
结构 化 数据 集 ， 便 于 科研 人 员 获 取 和 利用 。 典 型 案例 以 文献 中 的 实验 方法 信 
息 抽取 、 组 织 与 结构 化 为 代表 ， 如 以 目标 合成 物质 为 核心 的 实验 分 解 流程 图 
的 组 织 ， 不 仅 满足 科研 人 员 的 细 粒 度 知识 学 习 需 求 ， 也 满足 了 AI 模型 对 文 
献 数据 中 隐 性 知识 的 学 习 需 求 。 

(3) 人 机 互动 数据 表示 的 探索 

现 有 数据 组 织 形 式 是 以 人 类 可 理解 形式 呈现 ， 满 足 了 科研 人 员 知 识 学 习 
需求 ， 但 科研 智能 化 研究 中 不 仅 要 注重 科研 人 员 的 知识 学 习 需 求 ， 也 需要 关 
注 AI 模型 的 知识 学 习 需 求 ， 需 要 把 现 有 知识 进一步 转化 为 AT 模型 可 理解 形 
式 ， 搭 建 人 类 语言 和 机 器 语言 之 间 的 桥梁 。 以 向 量化 数据 库 的 构建 为 代表 ， 
如 Science Navigator 借助 向 量 计算 技术 和 大 语言 模型 实现 了 非 结构 化 文献 
数据 的 向 量化 表征 、 语 义 搜索 、 相 似 度 计算 ， 以 作为 科研 智能 化 研究 发 展 的 
基础 设施 支撑 。 

(4) 数据 关联 化 挖掘 

科研 智能 化 趋势 下 的 知识 发 现 是 以 关联 识别 和 挖掘 为 核心 ,构建 不 同 层 
级 数据 之 间 的 关联 关系 以 实现 数据 或 特征 预测 的 目标 ， 如 材料 领域 材料 成 分 
-结构 -工艺 -性 能 和 化 学 领域 分 子 结构 -性 质 - 功 能 等 复杂 构 效 关系 的 构建 。 
此 外 ， 现 有 AI 模型 属于 “黑箱 ”模型 ， 在 数据 关联 中 的 挖掘 不 具备 可 解释 
性 , 不 易于 预测 结果 的 理解 。 因 此 ， 面 对 科研 智能 化 研究 需要 构建 可 解释 AT 
模型 助力 关联 规则 挖掘 的 可 理解 性 ， 进 一 步 实现 不 同 领域 科研 数据 隐 性 关系 
的 显 性 化 。 

(5) 科研 数据 类 型 的 丰富 化 

科研 智能 化 研究 中 越 来 越 重视 实验 流程 方案 的 抽取 与 组 织 ， 是 科研 智能 
机 器 人 学 习 的 重要 数据 资源 ， 也 是 实验 组 合 规律 智能 分 析 与 发 现 的 核心 ， 其 
内 容 是 不 同 实验 元 素 及 其 数量 的 组 合 关 系 ， 其 提取 是 对 科技 文献 的 提炼 和 总 
结 ， 增 强 了 实验 方案 的 机 器 可 读 性 。 现 有 实验 方案 的 组 合 是 以 简单 的 文本 形 
式 组 合 , 检索 以 单一 的 实验 物质 名 称 为 检索 核心 , 不 能 满足 用 户 以 实验 目标 、 
实验 步骤 或 实验 原理 等 为 核心 的 检索 需求 ， 未 来 可 通过 构建 领域 实验 方案 知 
识 图 谱 结 合 精准 推荐 技术 ,根据 用 户 多 方面 的 需求 给 出 推荐 内 容 ， 辅 助 科研 


人 员 高 效 选 择 实验 方案 。 
5 ”科研 智能 化 趋势 下 科研 数据 服务 相关 建议 


针对 文献 信息 服务 机 构 如 何 深入 参与 新 科研 范式 ， 发 挥 其 在 数据 服务 中 
的 优势 ， 本 节 基 于 上 述 分 析 为 科研 数据 服务 的 发 展 提出 以 下 建议 。 

(1) 加 快 构建 高 质量 全 面 化 的 领域 数据 网 络 。 数 据 是 科研 智能 化 研究 的 
重要 驱动 力 之 一 ， 其 获取 的 便利 化 、 全 面 性 和 可 用 性 关乎 科研 智能 化 研究 的 
效率 和 质量 。 从 使 用 数据 来 源 看 ， 现 有 科研 智能 化 研究 案例 中 使 用 的 数据 多 
来 自 于 国外 数据 库 、 开 放 数 据 平台 或 商业 性 出 版 商 ， 国 内 构建 的 数据 库 和 开 
放 数 据 平台 使 用 较 少 ， 利 用 率 低 ， 从 侧面 也 说 明了 国内 构建 的 数据 库 需 要 进 
一 步 提 高 数据 质量 和 结构 化 程度 ， 加 强 开放 性 高 质量 数据 库 的 建立 和 推广 。 
从 使 用 数据 来 源 数 量 看 ， 科 研 智 能 化 研究 中 使 用 的 数据 分 散在 多 个 数据 平 
台 ， 需 要 针对 不 同 平台 采取 不 同 的 数据 获取 和 分 析 方 法 ， 数 据 挖掘 和 分 析 在 
科研 中 的 占 比 较 大 ， 降 低 了 科研 效率 。 因 此 ， 需 要 构建 统一 、 高 质量 、 标 准 
化 的 领域 数据 平台 ， 集 成 开放 性 、 商 业 性 和 私人 性 科研 数据 满足 科研 智能 化 
对 多 源 数据 的 需求 。 

(20 重视 文本 型 数据 中 实验 信息 的 挖掘 。 现 有 科研 智能 化 研究 重视 文本 
型 数据 的 细 粒 度 内 容 挖掘 ， 以 构建 结构 化 关联 知识 。 基 础 科学 的 智能 化 研究 
以 实验 信息 的 关联 挖掘 和 结构 化 为 代表 ， 成 为 自动 化 流程 实验 的 核心 数据 。 
现 有 实验 信息 以 Springer。 Nature 的 Protocols 实验 室 指 南 数 据 库 和 CAS 
的 Synthetic Methods 合成 试验 方法 数据 库 为 代表 ， 适 用 于 科研 人 员 查 询 和 
学 习 ， 但 不 适用 于 科研 智能 化 研究 的 使 用 和 输入 ， 因 此 ， 未 来 需要 构建 实验 
流程 信息 的 数据 库 以 支持 智能 化 研究 。 

(3) 关注 人 机 互动 语言 的 探索 。AI 模型 是 科研 智能 化 研究 的 重要 参与 
者 ， 现 有 知识 时 面向 人 类 学 习 需 求 服务 ， 其 知识 内 涵 和 语义 关系 都 需要 进 一 
步 转化 为 机 器 数据 表征 模式 ， 其 特征 或 表征 的 模式 直接 关系 知识 发 现 的 准确 
性 。 因 此 ， 需 要 构建 面向 不 同 研究 目标 的 标准 化 知识 表征 语言 搭建 人 类 知识 
与 机 器 学 习 的 桥梁 。 

(4) 深化 嵌入 科研 式 数 据 服 务 模式 。 在 数据 密集 型 时 代 ， 我 国 数 据 服务 
模式 转变 为 以 数据 为 核心 的 数据 服务 模式 ， 注 重 前 端 数 据 服务 中 的 数据 采 
集 、 获 取 和 挖掘 服务 ， 对 科研 生命 周期 中 的 研究 准备 服务 、 数 据 处 理 与 分 析 
技术 选择 、 数 据 出 版 服务 关注 度 较 低 ， 导 致 伴 入 式 数据 服务 模式 对 科研 创新 
的 支持 和 影响 力度 较 低 。 因 此 ， 从 科研 生命 周期 出 发 提供 艇 入 式 数 据 服务 ， 
以 实践 出 发 提升 科研 人 员 的 信息 素养 和 数据 素养 ， 激 发 科研 人 员 的 创造 力 、 
创新 能 力 和 科研 能 力 ， 才 能 提升 文献 信息 服务 机 构 在 科研 智能 化 趋势 中 的 参 
与 度 、 影 响 力 和 竞争 力 。 

C5) 提升 图 书馆 员 领 域 知 识 和 人 工 智能 素养 的 提升 。 科 研 智 能 化 研究 是 
人 工 智 能 领域 与 其 他 学 科 领 域 诡 叉 融 合 发 展 的 结果 ， 其 核心 是 领域 知识 与 人 
工 智能 技术 的 交融 ， 对 图 书馆 员 的 数据 服务 能 力也 提出 了 新 的 要 求 ， 在 图 情 
领域 知识 学 习 的 基础 上 要 具备 数据 分 析 和 挖掘 知识 成 为 数据 岁 书 馆 员 ， 在 数 
据 分 析 和 挖掘 知识 学 习 基 础 上 要 有 具备 领域 知识 成 为 学 科 图 书馆 员 ， 在 领域 知 
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识 学 习 基 础 上 要 具备 人 工 智能 知识 成 为 智慧 化 图 书馆 员 ， 才 能 提升 科研 智能 
化 趋势 下 数据 服务 的 质量 。 
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